Depth cues are known to be useful for visual perception. However, direct measurement of depth is often impracticable. Fortunately, though, modern learning-based methods offer promising depth maps by inference in the wild. In this work, we adapt such depth inference models for object segmentation using the objects' ``pop-out'' prior in 3D. The ``pop-out'' is a simple composition prior that assumes objects reside on the background surface. Such compositional prior allows us to reason about objects in the 3D space. More specifically, we adapt the inferred depth maps such that objects can be localized using only 3D information. Such separation, however, requires knowledge about contact surface which we learn using the weak supervision of the segmentation mask. Our intermediate representation of contact surface, and thereby reasoning about objects purely in 3D, allows us to better transfer the depth knowledge into semantics. The proposed adaptation method uses only the depth model without needing the source data used for training, making the learning process efficient and practical. Our experiments on eight datasets of two challenging tasks, namely camouflaged object detection and salient object detection, consistently demonstrate the benefit of our method in terms of both performance and generalizability.
translated by 谷歌翻译
移动对象检测(MOD)是成功实现安全自动驾驶的关键视觉任务。尽管深度学习方法的结果合理,但大多数现有方法仅基于框架,并且在与动态的交通参与者打交道时可能无法达到合理的性能。传感器技术的最新进展,尤其是事件摄像头,可以自然地补充传统的摄像头方法,以更好地模型移动对象。但是,基于事件的作品通常会采用预定义的时间窗口进行事件表示,并简单地将其集成以估算事件的图像强度,从而忽略了可用异步事件的许多丰富时间信息。因此,从新的角度来看,我们提出了一种新型的RGB事件融合网络Renet,该网络共同利用这两种互补方式,以在挑战性的情况下实现更强大的MOD,以实现自主驾驶。具体而言,我们首先设计一个时间多尺度聚合模块,以完全利用RGB曝光时间和较大间隔的事件框架。然后,我们引入一个双向融合模块,以认真校准和融合多模式特征。为了评估网络的性能,我们仔细选择并从常用的DSEC数据集中选择一个子模型数据集。广泛的实验表明,我们提出的方法的性能明显优于最新的RGB事实融合替代方案。
translated by 谷歌翻译
有效利用多模式输入以进行准确的RGB-D显着性检测是一个引起人们兴趣的话题。大多数现有作品都利用跨模式的交互来融合RGB-D的两个流以进行中间功能的增强。在此过程中,尚未完全考虑可用深度质量低的实际方面。在这项工作中,我们的目标是RGB-D显着性检测,这对低质量的深度具有鲁棒性,这些深度主要出现在两种形式:由于噪声和对RGB的错位而导致的不准确。为此,我们提出了一种强大的RGB-D融合方法,该方法从(1)层方面受益,以及(2)三叉戟的空间,注意机制。一方面,根据深度精度,层次的注意力(LWA)学习了RGB和深度特征的早期和晚期融合之间的权衡。另一方面,三叉戟的空间注意力(TSA)汇总了更广泛的空间环境中的特征,以解决深度错位问题。所提出的LWA和TSA机制使我们能够有效利用多模式输入以进行显着检测,同时对低质量的深度进行健壮。我们在五个基准数据集上进行的实验表明,所提出的融合方法的性能始终如一要比最先进的融合替代方案更好。
translated by 谷歌翻译
由于从输入方面互补的方式,RGB-D语义细分引发了研究的兴趣。现有作品通常采用两流体系结构,该体系结构并行处理光度法和几何信息,很少有方法明确利用深度线索的贡献来调整RGB图像上的采样位置。在本文中,我们提出了一个新颖的框架,以将深度信息纳入RGB卷积神经网络(CNN),称为Z-ACN(深度适应的CNN)。具体而言,我们的Z-ACN生成了一个2D适应的偏移量,该偏移完全受到低级功能的约束,以指导RGB图像上的特征提取。通过生成的偏移,我们引入了两个直观有效的操作,以取代基本的CNN操作员:深度适应的卷积和深度适应的平均池。对室内和室外语义分割任务的广泛实验证明了我们方法的有效性。
translated by 谷歌翻译
具有更多数据,计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如,由于缩放,GPT-3能够在内心学习任务上实现强烈结果。但是,培训这些大密度模型需要大量的计算资源。在本文中,我们提出并开发了名为Glam(通用语言模型)的语言模型系列,它使用稀疏激活的专家架构来规模模型容量,同时与致密变体相比,也产生显着更少的训练成本。最大的Glam具有1.2万亿参数,比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量,并且需要一半的计算拖鞋进行推理,同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。
translated by 谷歌翻译
我们总结了使用巨大的自动语音识别(ASR)模型的大量努力的结果,该模型使用包含大约一百万小时音频的大型,多样的未标记数据集进行了预训练。我们发现,即使对于拥有数万个小时的标记数据的非常大的任务,预训练,自我培训和扩大模型大小的组合也大大提高了数据效率。特别是,在具有34K小时标记数据的ASR任务上,通过微调80亿个参数预先训练的构象异构体模型,我们可以匹配最先进的(SOTA)性能(SOTA)的性能,只有3%的培训数据和通过完整的训练集可以显着改善SOTA。我们还报告了从使用大型预训练和自我训练的模型来完成一系列下游任务所获得的普遍利益,这些任务涵盖了广泛的语音域,并涵盖了多个数据集大小的大小,包括在许多人中获得SOTA性能公共基准。此外,我们利用预先训练的网络的学会表示,在非ASR任务上实现SOTA结果。
translated by 谷歌翻译
An increasing number of public datasets have shown a marked clinical impact on assessing anatomical structures. However, each of the datasets is small, partially labeled, and rarely investigates severe tumor subjects. Moreover, current models are limited to segmenting specific organs/tumors, which can not be extended to novel domains and classes. To tackle these limitations, we introduce embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models, dubbed the CLIP-Driven Universal Model. The Universal Model can better segment 25 organs and 6 types of tumors by exploiting the semantic relationship between abdominal structures. The model is developed from an assembly of 14 datasets with 3,410 CT scans and evaluated on 6,162 external CT scans from 3 datasets. We rank first on the public leaderboard of the Medical Segmentation Decathlon (MSD) and achieve the state-of-the-art results on Beyond The Cranial Vault (BTCV). Compared with dataset-specific models, the Universal Model is computationally more efficient (6x faster), generalizes better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks. The design of CLIP embedding enables the Universal Model to be easily extended to new classes without catastrophically forgetting the previously learned classes.
translated by 谷歌翻译
形状信息在医学图像中分割器官方面是强大而有价值的先验。但是,当前大多数基于深度学习的分割算法尚未考虑形状信息,这可能导致对纹理的偏见。我们旨在明确地对形状进行建模并使用它来帮助医疗图像分割。先前的方法提出了基于变异的自动编码器(VAE)模型,以了解特定器官的形状分布,并通过将其拟合到学习的形状分布中来自动评估分割预测的质量。我们旨在将VAE纳入当前的分割管道中。具体而言,我们提出了一种基于伪损失和在教师学习范式下的VAE重建损失的新的无监督域适应管道。两种损失都是同时优化的,作为回报,提高了分割任务性能。对三个公共胰腺细分数据集以及两个内部胰腺细分数据集进行了广泛的实验,显示了一致的改进,骰子分数中至少有2.8分的增益,这表明了我们方法在挑战无监督的域适应性方案中对医学图像分割的有效性。我们希望这项工作能够在医学成像中提高形状分析和几何学习。
translated by 谷歌翻译
大型语言模型已被证明可以使用少量学习来实现各种自然语言任务的出色表现,这大大减少了将模型调整到特定应用程序所需的特定任务培训示例的数量。为了进一步了解量表对少量学习的影响,我们培训了一个5400亿个参数,密集激活的变压器语言模型,我们称之为“途径”语言模型棕榈。我们使用Pathways在6144 TPU V4芯片上训练了Palm,这是一种新的ML系统,可在多个TPU POD上进行高效的训练。我们通过在数百种语言理解和产生基准的基准方面实现最先进的学习结果来证明扩展的持续好处。在这些任务中,Palm 540B实现了突破性的表现,在一系列多步推理任务上表现出色,超过了最新的最新表现,并且在最近发布的Big Benchmark上表现优于平均人类表现。大量的大型基础任务显示出与模型量表的不连续改进,这意味着当我们扩展到最大模型时,性能急剧增加。 Palm在多语言任务和源代码生成方面也具有很强的功能,我们在各种基准测试中证明了这一点。我们还提供了有关偏见和毒性的全面分析,并研究了训练数据记忆的程度,相对于模型量表。最后,我们讨论与大语言模型有关的道德考虑,并讨论潜在的缓解策略。
translated by 谷歌翻译
自动皮肤癌诊断的最新进展情况会产生与董事会认证的皮肤科医生的表现。然而,这些方法将皮肤癌诊断制定为简单的分类任务,解除了病变细分的潜在益处。我们认为,准确的病变分割可以补充具有添加性病变信息的分类任务,例如不对称,边界,强度和物理尺寸;反过来,忠诚的病变分类可以支持判别病变特征的分割任务。为此,本文提出了一个名为MT-TransUnet的新的多任务框架,该框架是MT-TransUnet,它能够通过在变压器中调解多任务令牌来协同分割和分类皮肤病。此外,我们引入了双重任务和参加区域一致性损失,以利用这些图像,没有像素级注释,确保在遇到与增强的账户时遇到相同图像时的模型的稳健性。我们的MT-TransUnet超过了ISIC-2017和PH2中的病变细分和分类任务的先前现有技术;更重要的是,它保留了有关模型参数(48m〜与〜130m)和推理速度的令人信服的计算效率(每张图片0.17s〜与〜2.02s)。代码将在https://github.com/jingyechen/mt-transunet上获得。
translated by 谷歌翻译